LLMは不公平な評価者 論文
論文情報
タイトル:Large Language Models are not Fair Evaluators
発行日:2023年8月
著者:Peiyi Wang, Lei Li, Liang Chen, Zefan Cai, Dawei Zhu, Binghuai Lin, Yunbo Cao, Qi Liu, Tianyu Liu, Zhifang Sui
所属:Peking University
論文を読んで感じたこと
GPT-4やChatGPTでこんなバイアスがあるなんて、LLMを評価者として使うときは、厳重に注意しなければいけない。
論文のポイント
GPT-4は一貫して、最初に提示される選択肢に、高いスコアを出す傾向がある。 ChatGPT(GPT-3.5)は2番目の選択肢を好む傾向にある。
https://scrapbox.io/files/65b77b145f85700024603e12.png
2つのモデルを比較するときに、性能に差がありすぎる時は、位置バイアスはさほど問題にならない
https://scrapbox.io/files/65b77986773e0200255e45ca.png
https://scrapbox.io/files/65b780620e582b002472688e.png
BPCが位置補正だが、MEC(k=6)より、MEC(k=3) + BPCの方が精度が高い
位置バイアスの補正が、有効
実際にどうする?
位置バイアス対策として、BPCは簡単にできそう。
1番目と2番目の両方の位置で1回ずつ評価し、2回のスコアの平均値を取る方法
現実的な運用では、AとBの部分を入れ替えても同じ結論になるかをきちんと確認する形となるか
MEC/HITLCは、日常では使いにくい
概要
本論文では、大規模言語モデル(LLM)を採用する評価パラダイムにおける体系的なバイアスを明らかにします。例えば、GPT-4を審査員として利用し、候補モデルが生成した応答の品質を評価・比較する際、応答の出現順序を単純に変更することで、候補の応答の品質ランキングを容易に操作できることが分かりました。この操作により、評価結果を歪めて、あるモデルが他のモデルよりも大幅に優れているように見せかけることができます。例えば、ChatGPTを評価者とした場合、Vicuna-13Bはテストされた80のクエリのうち66でChatGPTを上回ることができました。この問題に対処するために、我々は以下の3つのシンプルで効果的な戦略からなる校正フレームワークを提案します。 1) 複数の証拠校正:評価者モデルに複数の評価証拠を生成させてから評価を行うことを要求する。
2) バランスの取れた位置校正:最終スコアを決定するために様々な順序の結果を集約する。
3) 人間介入のループ校正:各例の難易度を測定するためにバランスの取れた位置多様性エントロピーを導入し、必要に応じて人間の支援を求める。
また、我々は手動でChatGPTとVicuna-13Bの応答に対する「勝ち/引き分け/負け」の結果をVicunaベンチマークの質問プロンプトで注釈し、広範な実験によって、我々のアプローチが評価バイアスを成功裏に軽減し、人間の判断とより密接に一致することを示しました。
1 はじめに
大規模言語モデル(LLM)の急速な進歩は、生成された応答における人間の意図との整合性を評価する重要性を強調し、研究の活発な分野となっています。従来のn-gramメトリックス(BLEU、ROUGE)や、より洗練されたモデルベースの評価(BERTScore、BARTScore)は、この整合性を十分に評価するには不十分です(He et al., 2023)。人間による評価は、モデルのパフォーマンスと貴重な洞察を最も正確に測定する手段を提供しますが、しばしばコストがかかり時間を要することがあります。その結果、人間の判断と一貫して整合し、より効率的かつコスト効果の高い自動評価方法に対する需要が高まっています。 ChatGPTとGPT-4は最近、様々なタスクで顕著なパフォーマンスを示しており、アノテーター(Peng et al., 2023; Xu et al., 2023)や評価者として広く使われています。たとえば、Vicunaの評価パイプライン(LLM as a Judge 論文)はそのシンプルさと解釈可能性から注目を集め、広く使用されています。これはGPT-4に候補の応答を評価させ、比較させ、説明を提供させることを促すものです。しかし、テキスト指示や入力に対する敏感さで知られるLLMが評価者としてどれほど信頼できるかは不明確です(Dong et al., 2022; Turpin et al., 2023; Bowman, 2023)。これは、候補のスコアリング中の順序などの摂動に対するこのパラダイムのレジリエンスに疑問を投げかけ、信頼できない評価を容易に行うためのアキレス腱になり得ます。 本論文では、LLM-as-evaluatorパラダイムについて冷静に見つめ、重要な位置バイアスを明らかにします。具体的には、GPT-4が一貫して最初に表示される候補応答に高いスコアを割り当てる傾向があることを示します。候補の順序を微妙に変更しても、この傾向は続きます。Figure 1で示されているように、単に提示順序を入れ替えるだけで評価結果が逆転することがあります。このバイアスはChatGPTにも存在し、通常は2番目の応答を好む傾向があります。これらの発見は、現在の評価パラダイムにおける以前に見過ごされていた限界を浮き彫りにしています。
https://scrapbox.io/files/65b77c0258edcf0024ad8f81.png
この問題に対処するため、我々は位置バイアスを校正するための3つのシンプルで効果的な戦略を提案します。
1) 複数の証拠の校正(MEC):モデルに評価の証拠を生成させ、スコアを割り当てる前に因果関係言語モデルの固有の特性を活用して校正します。また、複数の証拠の校正結果を統合するためにアンサンブル技術を利用し、評価をさらに安定させます。
2) バランスの取れた位置校正(BPC):位置バイアスをさらに減らすために、各候補を2回の実行で両方の位置で評価し、最終スコアを2回の実行の平均として算出します。
3) 人間介入のループ校正(HITLC):人間介入のループ評価を探求し、MECおよびBPCの評価結果に基づいて、バイアスがある候補を示す手がかりとなる多様性ベースの方法を検討します。
我々の手法の有効性を評価するために、ChatGPTとVicuna-13Bの応答から「勝ち/引き分け/負け」の結果をVicunaベンチマーク(Zheng et al., 2023)で手動で注釈しました。これには、9つの異なる質問カテゴリーにまたがる80の質問が含まれています。MECとBPCは、それぞれGPT-4とChatGPTの評価整合性を9.8%と14.3%向上させます。さらに、MECおよびBPCに基づいて、HITLCは評価プロセスに人間の支援をさらに効果的に統合することができます。具体的には、人間の注釈コストを20%に抑えることで、GPT-4とChatGPTは平均的な人間のパフォーマンスと同等またはそれ以上の注釈整合性を達成し、注釈コストを最大39%削減することができます。
要約すると、我々の主要な貢献は以下の通りです。
1) LLMは重度の位置バイアスを示し、評価者としての公正さを損なっていることを明らかにしました。
2) LLMの位置バイアスを校正するための3つのシンプルで効果的な戦略を含む校正フレームワークを開発しました。
3) ChatGPTとVicuna-13Bの応答から「勝ち/引き分け/負け」の結果をVicunaベンチマークで手動で注釈し、提案されたアプローチの有効性を実験結果を通じて示しました。これらの結果は、人間の判断との整合性がより密接であることを示しています。
2 LLM評価者の位置バイアス
2.1 LLM評価者としてのLLM
最近、研究者たちは、GPT-4などのLLMを使用して、2つのAIアシスタントのパフォーマンスを比較する評価者として利用しています。表1に示されているように、3つのプレースホルダーT(Q, R1, R2)を含む評価テンプレートを使用して、LLMに評価を求めます。 https://scrapbox.io/files/65b776cb73c2fd002344ffb6.png
code:md
テンプレ内容:
上記のユーザーの質問に対する2つのAIアシスタントのパフォーマンスに関するフィードバックをお願いします。彼らの応答の有用性、関連性、正確性、詳細レベルを評価してください。各アシスタントは1から10のスケールで総合スコアを受け取り、高いスコアは全体的なパフォーマンスが良いことを示します。まず、アシスタント1と2のスコアを示す2つの値のみを含む1行を出力してください。2つのスコアはスペースで区切られています。その後の行で、潜在的なバイアスを避け、応答が提示された順序が判断に影響を与えないことを確認しながら、評価の包括的な説明を提供してください。
各テスト質問qに対して、アシスタント1とアシスタント2からの2つの応答r1とr2が与えられた場合、研究者はこれらの応答を評価テンプレートの対応するスロットに入れてプロンプトを形成します:T(Q = q, R1 = r1, R2 = r2)。次に、このプロンプトを使用してLLMにクエリを行い、比較結果を得ます。本論文では、LLMが重度の位置バイアスを持っていることが分かりました。つまり、2つの応答のスロットを入れ替えてLLMに2回クエリすると、評価者はほとんどの場合、相反する評価結果を生成し、特定の位置の応答を好むことがあります。
2.2 位置バイアスの明らかに
このセクションでは、GPT-4とChatGPTを評価者として使用し、LLM評価者の位置バイアスの特性を分析します。我々は以下を発見しました。
LLMは応答の位置に敏感です。表2に示されているように、「Vicuna-13B対ChatGPT」および「Vicuna-13B対Alpaca-13B」の評価では、順序が変更された場合、LLMは異なる評価結果を提供します。例えば、Vicuna-13Bの勝率は、アシスタント1およびアシスタント2として評価された場合、極端に異なります。
https://scrapbox.io/files/65b77b145f85700024603e12.png
モデルの応答位置への感度を実証的に評価するために、我々は「コンフリクトレート」という指標を導入しました。これは、モデルが応答の位置に対してどれだけ敏感かを定量的に測定します。形式的には、N個の例{\(qi, r1i, r2i\)}_{i=1}^{N}が与えられた場合、各例\(qi, r1i, r2i\)に対して、LLMに2つのプロンプトT(qi, r1i, r2i)とT(qi, r2i, r1i)でクエリを行い、それぞれの評価結果ERr12iおよびERr21iを得ます。次に、以下のようにしてLLM評価者のコンフリクトレートを計算します。
https://scrapbox.io/files/65b7772e69f5fb0024e2f33d.png
ここで、I(.)は指標関数です。我々は、GPT-4がそれぞれ46.3%および5.0%のコンフリクトレートを示し、対照的にChatGPTは82.5%および52.5%というかなり高いコンフリクトレートを示しました。これらの発見は、LLMがテンプレート内の応答の順序に対する感度によって自己矛盾する可能性があることを示しており、より強力なモデルは応答の配置による影響を受けにくいことを示しています。
LLMは位置バイアスに悩まされており、特定の位置にある応答を好む傾向があります。例えば、表1の評価テンプレートTを用いて、GPT-4は第1の位置にある応答を好む傾向がありますが、ChatGPTは第2の位置にある応答を好む傾向があります。「Vicuna-13B対ChatGPT」の比較では、Vicuna-13Bがアシスタント1およびアシスタント2の位置にある場合、それぞれ51.3%と23.8%の勝率をGPT-4は示します。逆に、ChatGPTはVicuna-13Bがアシスタント1およびアシスタント2の位置にある場合、それぞれ2.5%と最大82.5%の勝率を示します。
位置バイアスの程度は、応答の品質の違いに基づいて変わります。「Vicuna-13B対Alpaca-13B」のコンフリクトレートは「Vicuna-13B対ChatGPT」よりもはるかに低く、位置バイアスが異なる応答の評価に同じ影響を与えるわけではないことを示唆しています。一つの考えられる理由は、AlpacaモデルとVicunaモデルの間に応答の品質に重大な違いがあり、そのような状況では位置バイアスが判断を変えるほど強くないことです。さらにこの問題を調査するために、我々は2つの応答のスコア差に基づいてすべての例をグループ化しました。Figure 2に示されているように、2つの応答のスコア差が小さい場合(例えば、スコア差 ≤ 1)、GPT-4の評価結果は応答の位置によって大きく影響を受けます。一方、2つの応答のスコア差が大きい場合(例えば、スコア差 ≥ 3)、GPT-4の評価結果は比較的安定しています。
https://scrapbox.io/files/65b77986773e0200255e45ca.png
3 位置バイアスの校正
LLMの評価結果に位置バイアスが大きな影響を与え、不公正な評価者になる可能性があることを確認しました。このセクションでは、このバイアスを軽減し、より信頼性が高く公平な評価結果を実現するために、3つのシンプルで効果的な戦略を含む校正フレームワークを提案します。
3.1 複数の証拠校正
以前の研究(Zheng et al., 2023; Wang et al., 2023b)は、まず結論を導き出し、その後説明を行う評価テンプレートを利用しています。しかし、自動回帰モデルの性質上、モデルによって生成された結論は、後で生成された説明によって支持されていません。そこで、表3に示されているように、モデルにまず説明(評価証拠)を生成させ、その後スコアを与えるよう求める証拠校正(EC)評価テンプレートTEC(Q, R1, R2)を設計しました。
https://scrapbox.io/files/65b77d16bb4c520027a67ff0.png
この方法では、スコアを評価の証拠で校正することができます。評価の信頼性をさらに向上させるために、各応答に対して単一のECスコアを生成するのではなく、複数の証拠校正(MEC、Figure 3(a))を行い、応答r1およびr2に対してk個のECスコア{S1r1, ..., Skr1}および{S'1r2, ..., S'kr2}をサンプリングします。ここで、SrおよびS'rはそれぞれ、応答rの第1および第2の位置でのスコアを表します。
https://scrapbox.io/files/65b77e4bc990810025b8574e.png
3.2 バランスの取れた位置校正
https://scrapbox.io/files/65b767fb1fbcc20024c44de7.png
そして、平均スコアが高い応答をより良い応答とみなします。
3.3 人間介入のループ校正
自動校正戦略に加えて、もう一つ興味深い問題として、人間介入のループ校正(HITLC)が、人間とLLMが評価者として協力することで、評価結果を安定させることができるかどうかを探求したいと思います。人間介入のループ校正の鍵となる点は、人間が評価に介入し、LLM評価者がうまく機能しない評価結果を校正するべきタイミングです。
「いつ」の問題に対処するために、Cai, Chang, Han(2023)に触発され、MECおよびBPCの評価結果に基づいて補助的な人間の校正が必要な例を見つけるために、バランスの取れた位置多様性エントロピー(BPDE)スコアを導入します。具体的には、図3(c)に示されているように、最初に2kペアのスコアに基づいて2k個の評価結果{ERi}2ki=1を計算します。
https://scrapbox.io/files/65b767eb83df960025f48fcc.png
BPDEスコアが高いほど、手動での校正が必要である可能性が高いことを示します。BPDEには、最もバイアスのある評価を選択するためのハイパーパラメータとしてのしきい値が必要です。BPDEスコアに基づいて選択された後、アノテーターは選択された例を評価し、4.1節で説明されているように、多数意見に基づいて人間の注釈を統合します。
4 実験
4.1 人間による注釈
提案した戦略の効果を評価するために、著者の3人が、Vicunaベンチマークの全80問について、ChatGPTとVicuna-13Bからの応答の「勝ち/引き分け/負け」の結果を独立して手動で注釈しました。全ての注釈者は人工知能に詳しい研究者であり、応答の品質を評価する能力を備えています。元のVicunaと同じテンプレートに従って、注釈者はVicuna-13BとChatGPTによって提供された応答を4つの異なる観点から評価するよう指示されています:有用性、関連性、正確性、詳細のレベル。VicunaとChatGPTの応答は注釈者にランダムな順序で提示されます。各例に対する評価プロセスは平均して3分かかりました。最終結果は3人の注釈者の多数意見に基づいています。
4.2 実験の設定とメトリック
我々はOpenAI APIを使用して実験を行います(ChatGPTには「GPT-3.5-turbo-0301」、GPT-4には「GPT-4」)。複数の生成結果をサンプリングする必要がない方法については、決定論的な生成結果のために温度を0に設定します。複数の証拠戦略については、温度を1に設定し、3つの生成結果(k = 3)をサンプリングします。最終的な多数の人間の注釈結果との精度およびカッパ相関係数(McHugh, 2012)を使用して、異なる評価者および評価方法のパフォーマンスを測定します。BPCを使用しない方法の結果を計算する際には、アシスタントからの2つの応答の順序をランダム化し、安定した結果を保証するために100回の実行の平均結果を計算します。 4.3 主要な結果
表4は、手動で注釈された80の例における異なる方法のパフォーマンスを示しています。示されているように:1)各人間注釈者によって提供された注釈と最終投票結果との間に良好な相関係数があります。詳しくは、人間の注釈の平均精度とカッパ相関係数はそれぞれ71.7%と0.54です;2)全体として、GPT-4はChatGPTと比較して、人間の判断との整合性が高く、人間との強力な整合能力を示しています;3)通常使用されるVANILLA評価方法と比較して、我々が提案した自動校正戦略(すなわち、EC、MEC、BPC)はGPT-4とChatGPTの人間の判断との整合性を顕著に向上させています。たとえば、MECとBPCの校正戦略を採用することで、ChatGPTは精度とカッパ相関係数の両方で顕著な改善を示しています。具体的には、精度は14.3%向上し、カッパ相関係数は0.06から0.31に増加しています;4)「MEC(k = 3)+ BPC(k = 3)」は「MEC(k = 6)」を上回り、LLMが位置バイアスの影響を受けること、BPCがLLMを公正な評価者として効果的に保証することを示しています;5)我々が提案したHITLCは、少量の人間の労働を必要としながら、GPT-4とChatGPTの人間の判断との整合性を効果的に向上させることができます。例えば、わずか20%(β = 20%)の人間の支援を組み込むことで、ChatGPTは人間の平均精度と同等のものを達成し、注釈コストを$30から$18.3に削減し、39%の削減を実現しています。
https://scrapbox.io/files/65b780620e582b002472688e.png
結論として、我々が提案した校正方法は、LLMを評価者として使用する際に、評価パフォーマンスを向上させるために、シンプルでありながら非常に効果的であり、低コストを維持しています。
5 分析
5.1 証拠数kおよび温度tの影響
MECおよびBPC戦略では、各クエリプロンプトに対してk個の評価結果をサンプリングし、それらをアンサンブルして評価プロセスを強化します。モデルの評価パフォーマンスに対する証拠の数kの影響を調査するための分析を行います。Figure 4(a)に示されているように、我々はkの異なる値(すなわち1、3、5、7)に対するChatGPTのパフォーマンスを比較しました。モデルのパフォーマンスはkが大きくなるにつれて増加し、その後一定になるかわずかに減少します。わずかな減少にもかかわらず、MCE戦略によるモデル効果の向上は依然として顕著であり、MEC戦略の安定性を示しています。その結果、kの値が3の場合に最適なパフォーマンスを得ることがわかりました。この値を使用すると、モデルは注目すべきパフォーマンスを達成し、APIコストを比較的低く抑えることができます。
さらに、サンプリング温度tが評価パフォーマンスに与える影響を調査します。図4(b)に示されているように、低温度(例:0.2)および高温度(例:1.4)は最適でない評価整合性をもたらします。我々は、低温度はサンプリングのランダム性を排除し、MECの効果を弱めると考えています。一方、高温度は生成結果の品質を損ない、パフォーマンスが低下します。したがって、LLM評価者に適切な温度(例:我々の実験では0.6または1.0)を選択することが重要です。
https://scrapbox.io/files/65b7a77f1ace710025b1ea7d.png
5.2 BPDEの有効性
我々の提案するHITLC戦略は、人間の注釈のための例を選択するためにBPDEスコアを使用します。BPDEスコアの効率を分析するために、我々はBPDEを2つの典型的なベースライン、ランダムおよびバニラ多様性エントロピーと比較します。ランダムは人間の注釈のために例をランダムに選択することを示し、バニラ多様性エントロピーは2つの応答の位置を入れ替えずに1つの位置の評価結果のみを使用して計算されます。公平性を保証するために、BPDEとバニラ多様性エントロピーの両方について、評価結果の合計数は6です。Figure 5に示されているように:1)2つの多様性エントロピー方法はランダムよりも優れており、多様性エントロピーに基づいて例を選択する効果を示しています;2)BPDEはバニラDEを上回っており、LLMが位置の交換に敏感であり、BPCの結果がMECの結果にのみ依存する場合と比較して、HITLCのパフォーマンスを大幅に向上させることを示しています。
https://scrapbox.io/files/65b7aaac980fa700244dd035.png
5.3 対比評価テンプレートにおける一般化
提案された校正方法の包括的な検証を提供するために、各応答を評価する従来のSCORING評価テンプレートに加えて、COMPARING評価テンプレートを分析に取り入れました。このテンプレートでは、2つの応答の直接比較を促し、その評価で明示的なスコアを避けます。具体的には、LLMに「アシスタント1」、「アシスタント2」、または「同じ」というラベル付けをして結果を生成させ、アシスタント1の応答がアシスタント2のものより良い、悪い、または同等かどうかを示します。表5に示されているように:1)我々の提案した方法は、これら2つのテンプレートに適用可能であり、ChatGPTの精度と相関係数を高めています;2)2つのテンプレートのVANILLA方法の顕著なパフォーマンスギャップ(約6%の精度)と高いコンフリクトレートは、LLMの敏感さと信頼性のなさを強調しています。しかし、我々の方法はこのパフォーマンスギャップを効果的に狭め、コンフリクトを減らし、校正がLLMの堅牢性を向上させることを示しています。
https://scrapbox.io/files/65b7abd4fbe1f80023687e4d.png
5.4 評価品質の詳細な分析
モデルの評価能力をさらに分析するために、Zheng et al. (2023)に従って質問を9つのカテゴリーに分け、これらのカテゴリー内で異なる評価者のパフォーマンスを計算しました。図6に示されているように、我々は以下を発見しました:1)一般常識、コーディング、数学などの複雑なタスクでは、GPT-4はChatGPTよりも顕著に優れており、これらのシナリオでのGPT-4の公正な評価者としての強みを強調しています;2)提案されたMEC+BPC戦略は、複雑なタスクにおけるChatGPTのパフォーマンスを評価する際の顕著な改善を示し、低いAPIコストで満足のいく評価結果を得ることを可能にします。
https://scrapbox.io/files/65b7ac53bbfeb90024ae0a4d.png
6 関連研究
6.1 大規模言語モデルの評価
LLMは強力な一般生成能力を示し、ユニバーサルアシスタントになっています。LLMの急速な進歩に伴い、人間の指示に従う能力を評価することが重要になってきました。従来の評価方法では、BLEU、ROUGE、BERTScore、またはBARTScoreなどの指標を計算して、生成された応答を参照応答と比較しています。しかし、これらの指標は生成された応答が人間の意図とどれだけ整合しているかを十分に測定していません(He et al.、2023)。人間による評価はモデルのパフォーマンスを測定する最も正確な方法とされていますが、大規模で運用するにはコストがかかり時間がかかります。LLMの強力な能力を考慮して、研究者たちは人間の指示に従う生成モデルの熟練度を評価するためにLLMを使用し始めています(Zheng et al.、2023;Lu et al.、2023;Li et al.、2023)。これらの作品では、Vicunaの評価パラダイム(Zheng et al.、2023)が広く採用されており、2つのモデルからの質問と応答を提供し、GPT-4を使用してどちらの応答がより良い品質かを判断しています。
6.2 ディープニューラルネットワークのバイアス
ディープニューラルネットワークは、データからバイアスを容易に学習することが証明されており、信頼性に大きな影響を与えています。具体的には、自然言語推論(Gururangan et al.、2018;McCoy、Pavlick、Linzen、2019;Belinkov et al.、2019;Liu et al.、2020a,b)、質問応答(Min et al.、2019)、ROCストーリークローズ(Cai、Tu、Gimpel、2017;Schwartz et al.、2017)、語彙推論(Levy et al.、2015)、視覚的質問応答(Goyal et al.、2017)、情報抽出(Wang et al.、2021、2022;Song et al.、2023a;Xia et al.、2023)などでバイアスが調査されています。LLMはインターネットからの膨大なデータを使用して事前学習されているため、それらの素材に存在するバイアスを学習する可能性が非常に高いです。LLMはすでに人間の評価者の代理として広く採用されていますが、このパラダイムの信頼性は十分に探求されていません。この論文では、LLM-as-evaluatorパラダイムを厳しく検討し、顕著な位置バイアスを明らかにします。さらに、信頼性の高く公正な評価結果を得るために、位置バイアスを校正するための3つのシンプルで効果的な方法を提案します。
7 結論
本論文では、ChatGPT/GPT-4モデルを使用した評価において、体系的な位置バイアスを明らかにしました:評価中に候補応答の順序を操作することで、品質ランキングの結果に大きな影響を与えることができます。この目的のために、複数の証拠校正(MEC)、バランスの取れた位置校正(BPC)、人間介入のループ校正(HITLC)という3つの効果的な戦略を導入しました。MECでは、LLM評価者に最初に複数の評価証拠を提供し、その後の評価を支持するよう求め、BPCは様々な順序からの結果を集約して最終スコアを決定します。MECおよびBPCの結果に基づいて、HITLCはさらにバランスの取れた位置多様性エントロピーを計算し、人間の注釈のための例を選択します。これらの戦略は、評価バイアスを減らし、人間の判断との整合性を向上させることに成功しました。将来の研究をサポートし、生成モデルの評価を強化するために、我々のコードと人間の注釈を提供します。